package tool;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

/**
 * Created by 陈冬 on 2017/3/21.
 */
public class Spider {

    public static void spider() {
        try {
//           1、通过爬虫拿到最后一页的数值
//           2、做循环抓取每一页的数据
            ESClient esClient = new ESClient();
            Document document = Jsoup.connect("http://news.scuec.edu.cn/?cat=12&paged=" + 2).get();
                Elements elements = document.getElementsByClass("n-post");
                for (int i = 0; i < elements.size(); i++){
                    System.out.println("--------" + i + "-------------");
                    String oneNewsUrl = elements.get(i).select("a").attr("href");
                    Document document1 = Jsoup.connect(oneNewsUrl).get();
                    Elements element = document1.getElementsByClass("left-content");
                    String title = element.select("h2").text();
                    System.out.println(title);
                    String content = document1.getElementsByClass("single-content").text();
                    System.out.println(content);
//               3、判断数据库中是否有该条记录
//               4、若有则跳过，可用continue;跳过该条信息（建议更新数据库）
//               5、若没有，则保存记录
                    System.out.println("1111111111111111111111");
                    esClient.insert(title,content);
                    System.out.println("2222222222222222222222222");
                }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}
